PySpark基础操作

PySparkSpark提供的Python API。您可以通过PySpark提供的DataFrame接口,完成各种计算逻辑。本文为您介绍PySpark的基础操作。

操作步骤

  1. 通过SSH方式连接集群,详情请参见登录集群

  2. 执行以下命令,进入PySpark交互式环境。

    pyspark

    更多命令行参数请执行pyspark --help 查看。

  3. 初始化SparkSession。

    from pyspark.sql import SparkSession
    
    spark = SparkSession.builder.getOrCreate()
  4. 创建DataFrame。

    from datetime import datetime, date
    import pandas as pd
    from pyspark.sql import Row
    
    df = spark.createDataFrame([
        (1, 2., 'string1', date(2000, 1, 1), datetime(2000, 1, 1, 12, 0)),
        (2, 3., 'string2', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
        (3, 4., 'string3', date(2000, 3, 1), datetime(2000, 1, 3, 12, 0))
    ],schema='a long, b double, c string, d date, e timestamp')

    DataFrame创建完成后,您就可以通过各种类型的transform算子完成数据计算。

  5. 打印DataFrameSchema。

    df.show()
    df.printSchema()